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Agrupamento 4 Agrupamento 


Aprendizado = Organização de um conjunto de objetos em 
Indutivo grupos (clusters) 
= De acordo com alguma forma de similaridade 
ou relação entre eles 


= 
POr 
Agrupamento | 0O= Como organizar? 


«ae 
Classificação Regressão H (o 
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4 Objetivo 


= Encontrar conjunto de clusters que maximizam SM 
ou minimizam DM 
= SM: medida de similaridade 
= DM: medida de dissimilaridade 
= Quanto maior a homogeneidade dentro dos grupos e a 
diferença entre os grupos, melhor 
= Alternativas 
= Busca exaustiva 
= Técnicas mais sofisticadas 
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4 Agrupamento de dados 4 Quantos clusters? 


X1 


Algoritmo de 
agrupamento 
DR 


2 clusters 4 clusters 
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E Diferentes alternativas 4 Agrupamento de dados 


= Possíveis formatos = Definição do que é um agrupamento 
= Imprecisa 


= Depende de: 
- Natureza dos dados 
- Resultados desejados 


= Existem várias 
Compacto Alongado Elipsoidal Espiral 
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4 Tipos de agrupamento 4 Tipos de agrupamento 


= Seja X= (X; X»--., X,) O conjunto de = Agrupamento crisp 
todos os dados = Cada objeto X; pertence ou não a cada cluster 


C; 


= Tarefa: colocar cada X,em um dos m clusters 
Cy Cl, ..., Co C, = FA ns m Ú Cc, q E 

= Agrupamentos podem ser de dois tipos: i=1 
- Tipo 1: duro (crisp) 


- Tipo 2: fuzzy = Objeto em C;mais semelhante a outros 
objetos em C; do que aqueles em CG, /=j 


GAS) EA, acao 
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4 Tipos de agrupamento 


= Agrupamento fuzzy 
= Usa uma função de pertinência para definir o 
quanto um elemento pertence a um grupo 


Lg: X>T0, 1] 


um) = LEE fl gn) m = número de grupos 
dt n = número de objetos 


0<> us) Ch, JE (say 


i=] 
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E Algoritmos de agrupamento 


= Particionais 
= Protótipos (erro quadrático médio) 
= Densidade 
Hierárquicos 
Baseados em grids 
Baseados em grafos 
Outros algoritmos 
= Ex.: Redes neurais SOM 
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4 Algoritmos particionais 


= Principais características 
= Produzem um único agrupamento 


= A maioria utiliza abordagem “gulosa” 
(greedy) 


- Sempre procura escolher melhor alternativa 
atual, sem considerar consequências futuras 


- Uma vez tomada uma decisão, ela não é mais 
alterada 


- Geralmente resultado depende da ordem de 
apresentação dos exemplos 
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4 Algoritmos de agrupamento 


= Busca exaustiva 


= Tentar todos os possíveis agrupamentos de 
tamanho /m (para varios valores de /m) 


= Números de Stirling do segundo tipo 


- Número de formas de particionar nn dados em 
m subconjuntos não vazios 


m = número de grupos 
>> n = número de objetos 


= Impraticável 
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4 Particional X Hierárquico 


CELLELO CULLELOO CLEO 
Zebra X Girafa 





Tamanho do 
Pescoço (m) 











Resolução 





Textura (t) 


o! 
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4 Algoritmos particionais 


K-médias 

K-médias ótimo 
K-médias sequencial 
SOM 

FCM 

DENCLUE 

CLICK 

CAST 

SNN 
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4 Algoritmo k-médias 4 Algoritmo k-médias 


= Supor n objetos x,, X, ..., X, a serem E = 
1 Sugerir médias Lt, o, -.., Ly Iniciais 
agrupados em k clusters, k < n 2 Repetir 
= Seja Lu; a média dos objetos do cluster C, Usar as médias sugeridas para agrupar 


pesar da dês os objetos em K clusters 
= Medida de distância pode ser utilizada para Para i variando de 1 a K 


definir a que cluster um objeto pertence Substituir u; pela média de todos os 


, bjetos do cluster C, 
- Xp e cluster C, se d(Xp, Lj) € menor que todas as Ras sa 
p i pr Mi A 
k-1 distâncias entre x, em, j=1,2,..., keizj det e 
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4 Algoritmo k-médias 4 Limitações do k-médias 


= Médias iniciais = Escolha do valor de K 


= Exemplos (vetores) aleatórios = K-médias tem problemas quando os grupos 
= Elementos aleatoriamente escolhidos do têm: 
conjunto de treinamento = Diferentes densidades 
= Formatos não hiper-esféricos 


= Tem problemas também quando os dados 
contêm outliers 
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4 Exercício 4 Validação de agrupamentos 


= Agrupar, utilizando k-médias, os dados = Existem várias medidas para avaliar 
abaixo em 2 grupos: qualidade de classificadores 
= Acurácia, precisão, revocação, Fi 
= Como avaliar os clusters gerados por um 
algoritmo de agrupamento? 
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4 Medidas de validação 4 Medidas internas 


= Existem várias medidas de validação = Coesão de clusters 
= Julgam aspectos diferentes 


= Podem ser divididas em três grupos 


= Índices ou critérios externos º 
- Medem o quanto os rótulos dos grupos casam com a classe E Sepa ração de clusters 
verdadeira , ue 
dica cu criinnaTaisaios = Mede o quao distinto ou separado cada cluster 
- Medem a qualidade da partição obtida sem considerar é dos demais clusters 
informações externas . 
= Indices ou critérios relativos = Silhueta 
- Usados para comparar duas partições ou grupos 


= Mede o quão relacionados estão os objetos 
dentro de um cluster 
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4 Silhueta 4 Silhueta 


= Combina coesão com separação = Para cada objeto x, 
= a(x;): distância media de x,aos outros objetos de seu cluster 


= Calculada para cada objeto que faz parte de = b(x; ): min (distância média de x,a todos os objetos de cada 
um agrupamento outro cluster) 


e I-a(x)/b(x,), sea(x)<b(x,) 
= Baseada na proximidade entre os objetos de um sE=dO, ethos 
cluster e na distância dos objetos de um cluster 


b(x)/a(x,)—1, sea(x,)>b(x,) 
ao cluster mais próximo = Largura média da silhueta 


= Média sobre todos os objetos do conjunto de dados 
= Valor entre -1 e 1 (quanto mais próximo de 1, melhor) 
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4 Algoritmos hierárquicos E Algoritmos hierárquicos 


= Utilizam diagrama de árvore (dendograma) = Conceito de representação hierárquica de 
= Produzem uma sequência (hierarquia) de dados originou-se na Biologia 
agrupamentos = Algoritmos de agrupamento hierárquicos = 
= Historicamente utilizados em áreas que estrutura hierárquica da taxonomia de Linnaean 
utilizam estrutura hierárquica de dados = Biólogos geralmente preferem agrupamentos 


« Ex.: Biologia e arqueologia hierárquicos 
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4 Algoritmos hierárquicos 4 Algoritmos hierárquicos 


= Aplicações na biologia geralmente não se = Podem ser de dois tipos: 
preocupam com o número ótimo de clusters = Aglomerativos: combinam, repetidamente, dois 


é o clusters em um 
= Biologos geralmente estao interessados na 
hi . let - À cada passo, combina os dois clusters mais 


= Divisivos: Dividem, repetidamente, um cluster 
em dois 


- À cada passo, divide o cluster menos homogêneo em 
dois novos clusters 
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E Exemplo 4 Algoritmos aglomerativos 


= Começam com C5 = (Xy, «.., AXn)) 
t | 
j = À cada passo t, combinam dois clusters em 
um, produzindo: 
IGal= |Gl-1eGc Go 
É = No passo final (passo n-1) tem-se a 
hierarquia: 





Divisivo 





| Aglomerativo 
| 


















































Sd | 
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UU —— — = 


= C=UXd cs AXIPC Cho Coy = AX cy Xn) 


4 Algoritmos divisivos + Algoritmo aglomerativo 


= Começam com C5 = (Xy, «.., Xn) 


= À cada passo t, dividem um cluster em 
dois, produzindo: 
= Fem = |C| Fl eCluycêl. Encontrar o par de clusters mais próximos (C, Cj) 


WinclalizarnCo = (Dee 
2 Parat= 1 atén- 1 faça 





C= (CIC, CNUIC, UC] atuali : 
= No passo final (passo n-1) tem-se a 1=(C,, —1C;, CDU TC, O C;]) * atualizar centros 


hierarquia: 
E CE Gap MITO nm E CE DG mark 
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4 Algoritmos hierárquicos E Algoritmos hierárquicos 


| a 
= Existe uma grande variedade de algoritmos = Como escolher uma partição: 
hierárquicos = Partição com n clusters 


- Selecionando partição com n clusters na sequência 
= Geralmente diferem na forma de calcular de agrupamentos da hierarquia 


distância inter-clusters 


das min(d,) Por ligação simples (single-link) 


= Partição que melhor se encaixa nos dados 


» Procurar no dendograma grandes mudanças em 
Ra níveis adjacentes 
das =max(d,) Por ligação completa (complete-link) « Nesse caso, uma mudança de j para j-1 grupos pode 
JB indicar que /ê o melhor numero de grupos 
I = Existem outros procedimentos, alguns mais objetivos 
dip= >,>,d, Pela média do grupo (average-link) 
NaDp iesjeB 
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E Exercício 


 uaBis dignas = Seja O seguinte cadastro de pacientes: 
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E! Exercício E Considerações finais 


= Agrupar os dados em dois grupos usando o = Abordagens tradicionais de agrupamento 
algoritmo K-medias e medida de silhueta são muito utilizadas em AM 


= Usark=2ek=3 
= Informação sobre a classe não deve ser usada 


Eu SEnpoR Stem eo caso sos anos = Dificuldade de validar agrupamentos 


= (Luis, não, não, pequenas, sim) RReannagos | 
= (Laura, sim, sim, grandes, sim) = Semi-supervisionado 


= Várias definições de agrupamento 
= Diversos algoritmos 
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4 Perguntas 
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